La base de datos proporcionada tiene un espacio temporal que data desde el 2010 hasta enero de 2024.
Fuente: Dirección de Investigación Criminal e Interpol (DIJIN) - Policía Nacional de Colombia.
Se realiza la exploracion de las dimensiones de la base de datos evidenciando que esta cuenta con:
Filas: 75152 Columnas: 9
Se debe corrigir el tipo de las columnas FECHA HECHO y CANTIDAD, dado a que éstas son de tipo Date y Número, luego de aplicar los cambios se observa:
Se realiza la verificacion de valores nulos o vacios obteniendo los siguientes resultados:
## DEPARTAMENTO MUNICIPIO CODIGO DANE
## 0 0 0
## ARMAS MEDIOS FECHA HECHO GENERO
## 0 0 0
## GRUPO ETARÍO DESCRIPCIÓN CONDUCTA CANTIDAD
## 0 0 0
Clara mente se observa que no existen valos nulos o vacios en ninguna de las variables.
Se realiza la verificacion de valores nulos o vacios obteniendo los siguientes resultados:
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## DEPARTAMENTO MUNICIPIO CODIGO DANE ARMAS MEDIOS FECHA HECHO GENERO
## 75152 1 1 1 1 1 1
## 0 0 0 0 0 0
## GRUPO ETARÍO DESCRIPCIÓN CONDUCTA CANTIDAD
## 75152 1 1 1 0
## 0 0 0 0
Clara mente se observa que no existen valores nulos o vacios en ninguna de las variables.
A continuacion se muestra un resumen de los estadisticos basicos de nuestra variable CANTIDAD:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 1.000 1.105 1.000 16.000
A continuacion presentamos un resumen de los estadisticos de los homicidios totales de la serie de tiempo luego de realizar la transformacion de los datos:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 174.0 397.0 449.0 491.5 526.0 1264.0
Dado a que es una serie de tiempo solo tendremos en cuenta la construcción de una base que contenga las variables FECHA HECHO y CANTIDAD para el analisis a realizar, de igualmanera se determinan los siguientes parametros:
adicionalmente se resaliza la verificacion de la clase de la serie de tiempo:
Luego de analizar los resultados se evidencia que en el mes de abril hay mayor numero de homicidios, adicionalmente se evidencia que la media de los meses se encuentra entre los 400 y 500 homicidios.
En 7 meses se observan unos valores atipicos que superan los 1000 homicidios y uno en el que se presentaron menos de 200, seria de gran valor hacer un analisis detallado de estos datos con el objetivo de entender mejor la naturaleza de estos resultados.
Para el caso de la grafica de rezagos se puede afirmar que no existe aleatoriedad, debido a que no se reflejan patrones identificables en los datos.
A continuacion se realiza el calculo de las medias moviles (SMA y EMA) de la serie de datos con el objetivo de obtener de forma mas clara el comportamiento de nuestra serie.
Durante los últimos 13 años, los homicidios en Colombia han
experimentado un aumento gradual. Las medias móviles de 12 meses
muestran que en 2010 había entre 230 y 240 asesinatos, comparados con
1000 a 850 asesinatos en los últimos meses de 2023 y enero de 2024,
quintuplicando así las cifras de este fenómeno en el país. Se observa
una tendencia a la baja al finalizar el primer semestre de cada año,
seguido por un aumento durante los últimos meses, adicionalmente, se
identifican dos períodos de fluctuaciones significativas:
Una baja notable al comienzo de la pandemia en 2020, dada la crisis sanitaria provocada por el COVID y la política de aislamiento social
Un aumento sostenido en casi todo 2023, este comportamiento podria estar asociados a aumentos de bandas criminales y grupos armados como efecto de los cambios politicos que se generaron con el actual gobierno en materia de seguridad.
En cuanto a las líneas móviles exponenciales versus las simples, aunque no coinciden exactamente en su posición, sí lo hacen en cuanto a su tendencia, siendo la línea simple más suavizada que la exponencial.
En congruencia con las medias móviles, se observa que la cantidad de
homicidios no supera los 375 casos mensuales mensuales antes del 2020,
sin embargo en el los periodos posteriores como en el 2023 se observa
que se alcanzan valores tope hasta de 1000 muertes mesuales en el país a
causa de los homicidios.
A continuacion realizaremos algunas transformaciones que nos permitiran detallar mucho mejor el analisis de nuestra serie de tiempo.
Acorde a la tendencia el comportamiento de los homicidios es lineal
durante los años 2010 y 2020. Posteriormente, se vuelve creciente hasta
finales del 2023.
##
## Augmented Dickey-Fuller Test
##
## data: Data_ts$homicidios
## Dickey-Fuller = -4.1312, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary
Dado que el p-value es menor al nivel de significancia de 0.05 se acepta la hipotesis alternativa de que la serie sí es estacionaria
Se evidencian picos en la mayoría de los años principalmente en los meses de febrero, abril, junio y octubre, a excepción de 2023; a diferencia de los meses mayo, septiembre y noviembre, don de la cantidad de hpmicidios disminuye.
Dado a que en los modelos de series de tiempo se requiere tener en cuenta la estacionariedad, para una mejor modelización y capacidad predictiva se procede a obtener las diferencias para hallarla. En otras palabras, se realiza para la estructuración del modelo a realizar.
¿Cuántas diferencias se necesitan para hallar estacionariedad?
Despues de realizar el procedimiento de diferenciacion se llega a la conclusion que se solo se requieren 1 diferencias para identificar la estacionariedad.
A continuacion, se aplica una transformacion logaritmica a la serie de tiempo, esto se realiza para cumplir con el supuesto de que la serie tiene variabilidad constante, para una mayor estabilidad e interpretación de datos.
El realizar la autocorrelacion nos permite identificar un comportamiento estacionario con respecto al tiempo en la serie de tiempo.
Al identificar la estructura autorregresiva en la serie, se tiene que, se necesitan 3 rezagos para predecir el valor actual de la serie.
Dada la evidencia de existencia de un valor medio, tendencia y estacionalidad en los datos; se permite la aplicación del modelo Holt-Winters; como modelo predictorio de largo y mediano plazo por medio de un triple suavizado exponencial al tener en cuenta los aspectos mencionados con anterioridad.
La primera decisión radica en elegir el tipo de patrón de estacionalidad, es decir, si este modelo debería ser representado por una estacionalidad aditiva o multiplicativa. Basándonos en la evidencia previamente encontrada, se observa una tendencia que aumenta o disminuye proporcionalmente con el promedio móvil de los datos, lo que sugiere que no permanece constante. Además, la amplitud de esta estacionalidad varía con el nivel encontrado. Por lo tanto, se decidió que el modelo a escoger será multiplicativo.
La gráfica nos brinda una visualización del comportamiento de las predicciones generadas por el modelo multiplicativo Holt-Winters. En un primer vistazo, podemos observar un ajuste cercano entre las predicciones y los datos base. Además, se aprecia una tendencia y estacionalidad similar entre ambas.
Los valores de los parámetro obtenidos son: Alpha: 0.694986 Beta: 0 Gamma: 0.0054929
Al revisar los parámetros usados se puede apreciar que el modelo está dando más peso al parámetro Alpha que corresponde a la tendencia.
Para un mejor ajuste, se probará modificar los parametros Beta, Gamma y Alpha del modelo holt-winters, dado a que éstas se asocian respectivamente con tendencia, estacionalidad y nivel (promedio móvil).
Alpha es un número entre 0 y 1 que determina cuanto peso se le da a las observaciones más recientes al calcular la tendencia.
Beta es un número entre 0 y 1 que determina cuanto peso se le da a las observaciones más recientes en cuanto su estacionalidad.
Gamma es un número entre 0 y 1 que determina cuanto peso se le da a las observaciones más recientes en cuanto su nivel (promedio móvil).
Al modificar dando más peso al parámetro Gamma correspondiente al Nivel, se puede apreciar como las estimaciones cambian en magnitud y los picos y valles no coinciden en igual proporción como en el modelo original.
Al modificar dando más peso al parámetro Beta correspondiente a la Estacionalidad, se puede apreciar como las estimaciones del 2024 es muy diferente a los modelos anteriores, lo cual se explica al considerar lo ocurrido en el año 2023 como consecuencia de factores externos que sólo afectan en ese periodo de tiempo.
El ajuste del modelo muestra una tendencia constante, un nivel que se aproxima a los datos observados y una estacionalidad periódica entre los años.
En los valores predichos bajo el modelo Holt-winters, se implementó la predicción de 11 meses posteriores a enero 2024 con intervalos de confianza del 80 y 95%, observando unas barreras correspondientes a 1200 maximo y menos de 200 homicidios sin 0, por observación, el número estaría entre 180 a 150 homicidios.
Realizando una autocorrelación a través de la función ‘acf’, se establecen unos rezagos de 30, haciendo alusión a la misma obsevación en el mes anterior, y dejando denotado no tener en cuenta los NA’s en la operación.
Dado lo anterior, se observa que solo un error sobresale de la franja inferior de confianza, denotando la existencia de factores externos que tienen un grado elevado de significancia en la variabilidad de los datos pudiendo atribuirse a los cambios políticos del nuevo gobierno central o la crisis sanitaria.
La prueba Ljung-box evalua la hipotesis nula de que no hay autocorrelación en los datos hasta el rezago especificado, en este caso 30.
##
## Box-Ljung test
##
## data: Modelo_evaluation$residuals
## X-squared = 37.565, df = 30, p-value = 0.1613
Dado que p-value es mayor a 0.05 se acepta la hipotesis nula advertida en el parrafo anterior, lo que significa que en primera instacia hay una buena especificación del modelo, las predicciones son confiables y los residuos son aleatorios, lo que permite al modelo capturar adecuadamente la estructura de dependencia temporal de los datos.
Así las cosas, graficando los residuos del modelo, se tiene que gran parte de las observaciones se encuentran alrededor de 0, lo que sugiere que el modelo no tiene un sesgo sistemático en sus predicciones; captura bien la estacionalidad y la tendencia de los datos; y explica en mayor parte la variabilidad de los datos.
La prueba dicker-fuller realizada en líneas de código anteriores, confirma estacionariedad en los datos con un p-value de 0.01; se ajustó la variabilidad y se halló los rezagos correspondientes. De esta manera, con todas estas observaciones realizadas, este subcapitulo de modelaje se trabajará con el time series conformada de ‘a_estacio’
## Series: a_estacio
## ARIMA(2,0,1)(0,0,2)[12] with zero mean
##
## Coefficients:
## ar1 ar2 ma1 sma1 sma2
## 0.4779 0.2408 -0.9531 0.2029 0.2801
## s.e. 0.0869 0.0855 0.0358 0.0825 0.1044
##
## sigma^2 = 0.02311: log likelihood = 79.27
## AIC=-146.54 AICc=-146.02 BIC=-127.8
En respuesta a la ARIMA(2,0,1)(0,0,2)[12]; se tiene que el modelo mide una parte no estacional con los componentes (2,0,1) y estacional (0,0,2)[12]; esto, permitirá capturar patrones tanto de corto plazo como de largo plazo.De esta manera, la primera parte contiene 2 componentes autoregresivos. 0 de estacionariedad y 1 con media móvil; por su parte, la segunda contiene una media móvil de 2 y el período de evaluación de 12 meses refiriendosea que los datos se presentan de manera anual.
Por su parte los valores bajos de AIC (Akaike Information Criterion) de -146.54 señala a complejidad del modelo, donde a menor valor mejor el modelo, AICc (Corrected AIC) de -146.02 y BIC (Bayesian Information Criterion) de -127.8 sugieren que el modelo se ajusta bien a los datos.
## numeric(0)
retorna numeric(0). Esto significa que no se detectaron puntos de cambio en la media de la serie temporal a_estacio utilizando el método ‘AMOC’. En otras palabras, la serie temporal no muestra evidencia de un cambio significativo en la media en ningún punto.
La salida numeric(0) indica que la media de la serie temporal a_estacio es constante a lo largo del tiempo, al menos según el método ‘AMOC’.
##
## Shapiro-Wilk normality test
##
## data: residuales
## W = 0.85614, p-value = 1.487e-11
Se puede observar que que hay residuos extremos tanto en la parte inferior como superior de la linea de ajuste. Adicionalmente en el test de Shapiro el valor W: 0,856, establece que los datos se alejan de un comportamiento normal, en lina con este resultado el p-value: 1.487e-11 indica que existe suficiente evidencia estadistica para rechazar la hipotesis nula Ho:Los datos provienen de una distribucion normal.
##
## Box-Ljung test
##
## data: residuales
## X-squared = 0.001641, df = 1, p-value = 0.9677
Dado que la p-value es mayor a 0.05 se acepta la hipotesis nula, lo que significa que en primera instacia hay una buena especificación del modelo, las predicciones son confiables y los residuos son aleatorios, lo que permite al modelo capturar adecuadamente la estructura de dependencia temporal de los datos.
Se realiza la aplicacion del modelo Prophet, debido a que el modelo solo reconoce las variables ds para unidad de tiempo y y para los valores de resultados se convierten las variables fechas y homicidios a este formato como se observa en la muestra a continuacion:
## ds y
## 1 2010-01-01 411
## 2 2010-02-01 392
## 3 2010-03-01 353
## 4 2010-04-01 389
## 5 2010-05-01 319
## 6 2010-06-01 397
Dado a que los datos se encuentran por mes, el ajuste del modelo se realiza activando la estacionalidad anual y desactivando la diaria y semanal.
El objetivo de prediccion para el modelo ajustado se establece para 11 periodos de la serie de tiempo, con una frecuencia mensual, lo que nos entregaria un resultado que abarca hasta diciembre 2024.
El el grafico se puede observar el comportamiento durante el periodo de pandemia y la variación creciente del 2023 por fuera de las bandas predichas por el modelo, este comportamiento se muestra atipico en comparacion con el historico, lo que podria ser relevante analizar teniendo en cuenta la importancia de este indicador para la seguridad publica.
A continuacion se presentan los componentes de modelo prophet en los que se observa la tendencia y los residuos, permitiendo identificar el comportamiento del modelo hasta la prediccion.
Para el caso de la tendencia, es claro que la prediccion presenta un comportamiento ascendente para el año 2024.
La grafica de residuales de la prediccion muestran, que a finales de septiembre los homicidios en el país tienden a la baja; adicionalmente, los meses de julio y enero son donde este indicador sufre un incremento significativo en comparacion con el resto de los meses.
Se usa la serie original para el modelo Arima, esto con el objetivo de tener todas las predicciones en la misma escala
## actual_values
## 576 628 630 675 679 711 1130 1163 1177 1208 1262 1264
## 1 1 1 1 1 1 1 1 1 1 1 1
## # A tibble: 3 × 9
## Model ME RMSE MAE MPE MAPE MASE RMSSE ACF1
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Holt-Winters 33.6 237. 178. 9.91 22.1 1.20 0.914 0.224
## 2 ARIMA 35.8 264. 185. 11.7 24.3 1.25 1.01 0.242
## 3 Prophet -129. 306. 272. -5.36 28.0 1.84 1.18 0.518
De acuerdo a los resultados obtenidos, el modelo Holt-Winters fue el modelo que obtuvo los mejores resultados en todas las métricas.
## [1] 630.0000 609.7976 609.1428 669.9873 697.3891 748.5369 792.6255 779.2008
## [9] 762.8151 798.1931 666.4225
Luego de realizar la reversion de la transformacion de los pronosticos de auto.arima, se realiza la verificacion de los valores y su visualizacion grafica para evaluar su comportamiento.
## Periodo HW Arima Prophet
## [1,] "2024-02-01" "554.0950" "630.0000" "872.4211"
## [2,] "2024-03-01" "573.6171" "609.7976" "844.2132"
## [3,] "2024-04-01" "673.1854" "609.1428" "920.6317"
## [4,] "2024-05-01" "636.5987" "669.9873" "862.5778"
## [5,] "2024-06-01" "598.0106" "697.3891" "901.1336"
## [6,] "2024-07-01" "591.1346" "748.5369" "859.6453"
## [7,] "2024-08-01" "598.7540" "792.6255" "882.9593"
## [8,] "2024-09-01" "595.6722" "779.2008" "899.5581"
## [9,] "2024-10-01" "686.4062" "762.8151" "918.8287"
## [10,] "2024-11-01" "587.8795" "798.1931" "875.8336"
## [11,] "2024-12-01" "562.1790" "666.4225" "883.8712"
## NULL
IMPORTANTE: Para los resultados obtenidos se logro revertir la diferenciacion (ver las lineas del codigo 631 a 633), sin embargo no se aplica debido a que la grafica del forecast se hace con los residuos e intervalos de confianza, aplicar la reversion cuando se realice la comparacion de resultados de predicciones de modelos respecto a la serie original.
Para la eliminacion de la estacionalidad, se puede aplicar el mismo metodo de reversion si fue eliminada con Diff o Exp si se utilizo Log para la transformacion.